基于文本的人搜索是一项具有挑战性的任务,旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来,基于文本的人搜索取得了良好的进步,而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是,现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语,然后进行复杂的跨模式本地匹配。此外,现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中,我们提出了一个有效的联合信息和语义对齐网络(ISANET),用于基于文本的人搜索。具体而言,我们首先设计一个特定图像的信息抑制模块,该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题,并实现图像和文本之间的信息对齐。其次,我们建议一个隐性的本地对齐模块,以将图像和文本功能适应一组模态共享的语义主题中心,并隐式地学习图像和文本之间的本地细粒度对应关系,而无需其他监督信息和复杂的跨模式互动。此外,引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。
translated by 谷歌翻译
由于单个RGB图像的不利低对比度和弱可见性问题,低光图像增强(LLE)仍然具有挑战性。在本文中,我们回应了有趣的学习相关问题 - 如果利用可访问的既可接近的过分配对/曝光过度的图像和高级别的语义指导,可以提高尖端LLE模型的性能?在这里,我们提出了一种有效的语义对比的学习范例(即SCL-LLE)。除了现有的LLE智慧之外,它将图像增强任务施放为多任务联合学习,其中LLE被转换为对比学习,语义亮度一致性的三个约束,同时确保曝光,纹理和颜色一致性。 SCL-LLE允许LLE模型从未配对的阳性(常灯)/否定(过度/曝光),并使其与场景语义进行互动以正规化图像增强网络,但高级语义知识的相互作用并且在以前的方法中很少地研究了低级信号。培训易于获得的开放数据,广泛的实验表明,我们的方法超越了六个独立的交叉场景数据集的最先进的LLE模型。此外,讨论了SCL-LLE在极暗条件下有益于下游语义分割的潜力。源代码:https://github.com/linglix/sclle。
translated by 谷歌翻译
我们通过纳入通用依赖性(UD)的句法特征来瞄准直接零射击设置中的跨语言机器阅读理解(MRC)的任务,以及我们使用的关键功能是每个句子中的语法关系。虽然以前的工作已经证明了有效的语法引导MRC模型,但我们建议采用句子际句法关系,除了基本的句子关系外,还可以进一步利用MRC任务的多句子输入中的句法依赖性。在我们的方法中,我们构建了句子间依赖图(ISDG)连接依赖树以形成横跨句子的全局句法关系。然后,我们提出了编码全局依赖关系图的ISDG编码器,通过明确地通过一个跳和多跳依赖性路径来解决句子间关系。三个多语言MRC数据集(XQUAD,MLQA,Tydiqa-Goldp)的实验表明,我们仅对英语培训的编码器能够在涵盖8种语言的所有14个测试集中提高零射性能,最高可达3.8 F1 / 5.2 EM平均改善,以及某些语言的5.2 F1 / 11.2 em。进一步的分析表明,改进可以归因于跨语言上一致的句法路径上的注意力。
translated by 谷歌翻译
对象检测是计算机视觉领域中最基本而具有挑战性的研究主题之一。最近,在航拍图像中的这一主题的研究取得了巨大的进步。然而,复杂的背景和更糟糕的成像质量是空中物体检测中的明显问题。大多数最先进的方法倾向于开发具有艰巨计算复杂性的时空特征校准的精心关注机制,同时令人惊讶地忽略了通道中特征校准的重要性。在这项工作中,我们提出了一种简单而有效的校准引导(CG)方案,以增强特征变压器时尚中的信道通信,其可以基于全局特征亲和力相关性自适应地确定每个信道的校准权重。具体地,对于给定的一组特征映射,CG首先将每个信道和剩余信道之间的特征相似性计算为中间校准引导。然后,通过通过引导操作聚合加权加权的所有信道来重新表示每个信道。我们的CG是一般模块,可以插入任何深度神经网络,该网络被命名为CG-Net。为了展示其有效性和效率,在航空图像中的定向对象检测任务和水平物体检测任务中进行了广泛的实验。两个具有挑战性的基准(DotA和HRSC2016)的实验结果表明,我们的CG-Net可以通过公平计算开销的准确性实现新的最先进的性能。源代码已在https://github.com/weizongqi/cg-net中开放源
translated by 谷歌翻译
从嘈杂的观察结果中检测网络社区结构的突然变化是统计和机器学习中的一个基本问题。本文介绍了一种称为Spectral-Cusum的在线变更检测算法,以通过广义似然比统计量来检测未知网络结构的变化。我们表征了光谱库过程的平均运行长度(ARL)和预期检测延迟(EDD),并证明其渐近最佳性。最后,我们证明了光谱曲线过程的良好性能,并使用传感器网络数据进行地震事件检测的模拟和真实数据示例将其与多种基线方法进行比较。
translated by 谷歌翻译
由于它们在现实世界中的广泛采用,提高深神经网络(DNN)的运行时性能至关重要。现有的优化DNN的张量代数表达的方法仅考虑由固定的预定义运算符表示的表达式,在一般表达式之间缺少可能的优化机会。我们提出了Ollie,这是第一个基于衍生的张量程序优化器。 Ollie通过利用一般张量代数表达式之间的转换来优化张量程序,从而实现了一个更大的表达搜索空间,其中包括由先前工作作为特殊情况支持的搜索空间。 Ollie使用基于混合衍生的优化器,该优化器有效地结合了探索性和指导性推导,以快速发现高度优化的表达式。对七个DNN的评估表明,Ollie可以在A100 GPU上胜过2.73 $ \ times $(平均为1.46美元$ \ times $),在V100上最多可超过2.68 $ \ times $(1.51 $ \ times $) GPU分别。
translated by 谷歌翻译
域的概括旨在学习一个通用模型,该模型在看不见的目标域上表现良好,并结合了来自多个源域的知识。在这项研究中,我们考虑了以下场景,在不同类别跨领域的条件分布之间发生不同的领域变化。当源域中的标记样品受到限制时,现有方法不足以鲁棒。为了解决这个问题,我们提出了一个新型的域泛化框架,称为Wasserstein分布在鲁棒域的概括(WDRDG),灵感来自分布稳健优化的概念。我们鼓励对特定于类的Wasserstein不确定性集中有条件分布的鲁棒性,并优化分类器在这些不确定性集上的最差性能。我们进一步开发了一个测试时间适应模块,利用最佳运输来量化未见目标域和源域之间的关系,以使目标数据适应性推断。旋转MNIST,PACS和VLCS数据集的实验表明,我们的方法可以有效地平衡挑战性概括场景中的鲁棒性和可区分性。
translated by 谷歌翻译
宫颈异常细胞检测是一项具有挑战性的任务,因为异常细胞和正常细胞之间的形态差异通常是微妙的。为了确定宫颈细胞是正常还是异常,细胞病理学家总是将周围细胞作为参考,并进行仔细比较以鉴定其异常。为了模仿这些临床行为,我们建议探索上下文关系,以提高宫颈异常细胞检测的性能。具体而言,利用细胞和细胞到全球图像之间的上下文关系,以增强每个感兴趣区域(ROI)建议的特征。因此,开发了两个模块,称为ROI关系注意模块(RRAM)和全球ROI注意模块(GRAM),还研究了它们的组合策略。我们通过使用特征金字塔网络(FPN)使用单头或双头更快的R-CNN来设置强基础,并将我们的RRAM和革兰氏集整合到它们中以验证提出的模块的有效性。由40,000个细胞学图像组成的大宫颈细胞检测数据集进行的实验表明,RRAM和GRAM的引入都比基线方法获得了更好的平均精度(AP)。此外,当级联RRAM和GRAM时,我们的方法优于最先进的方法(SOTA)方法。此外,我们还显示了提出的功能增强方案可以促进图像级别和涂片级别的分类。代码和训练有素的模型可在https://github.com/cviu-csu/cr4cacd上公开获得。
translated by 谷歌翻译
数字是文本的重要组成部分,就像任何其他单词代币一样,自然语言处理(NLP)模型是构建和部署的。尽管通常在大多数NLP任务中没有明确考虑数字,但NLP模型已经显示出基本数量的算术。在这项工作中,我们尝试利用最先进的NLP模型的潜力,并转移其在相关任务中提高性能的能力。我们建议将数字分类为实体的分类有助于NLP模型在多个任务上表现良好,包括手工制作的填充(FITB)任务以及使用联合嵌入式的问题回答,表现优于Bert和Roberta基线分类。
translated by 谷歌翻译
放射学报告生成旨在产生计算机辅助诊断,以缓解放射科医生的工作量,并最近引起了越来越长的关注。然而,之前的深度学习方法倾向于忽视医学发现之间的相互影响,这可以是限制所生成的报告质量的瓶颈。在这项工作中,我们建议在信息知识图表中提出和代表医学发现的协会,并将此事先知识纳入放射学报告,以帮助提高所生成的报告质量。实验结果证明了我们在IU X射线数据集上的提出方法的优越性,Rouge-L为0.384 $ \ PM $ 0.007和0.340 $ \ PM $ 0.011。与以前的作品相比,我们的模型平均实现了1.6%(苹果酒和Rouge-L的增加2.0%和1.5%)。实验表明,先验知识可以为准确的放射学报告生成表现收益。我们将在https://github.com/bionlplab/report_generation_amia2022中公开公开可用的代码。
translated by 谷歌翻译